智能论文笔记

A Sketch Is Worth a Thousand Words: Image Retrieval with Text and Sketch

Patsorn Sangkloy , Wittawat Jitkrittum , Diyi Yang , James Hays

分类：计算机视觉 | 机器学习

2022-08-05

我们解决了用草图和文本查询检索图像的问题。我们提出任务形成器（文本和草图变压器），这是一种可使用文本说明和草图作为输入的端到端训练模型。我们认为，两种输入方式都以一种单独的方式无法轻易实现的方式相互补充。任务形成器遵循延迟融合双编码方法，类似于剪辑，该方法允许有效且可扩展的检索，因为检索集可以独立于查询而独立于索引。我们从经验上证明，与传统的基于文本的图像检索相比，除文本外，使用输入草图（甚至是绘制的草图）大大增加了检索召回。为了评估我们的方法，我们在可可数据集的测试集中收集了5,000个手绘草图。收集的草图可获得https://janesjanes.github.io/tsbir/。

translated by 谷歌翻译

我们讨论了多尺度Fisher对Gorsky和MA（2022）提出的多变量依赖的独立性测试，与基于Hilbert-Schmidt独立标准（HSIC）的现有线性时间内核测试相比。我们强调了这样一个事实，即在任何有限样本量的内核测试水平都可以得到准确控制，就像多率级别一样。在我们的实验中，我们观察到测试能力方面的一些性能限制。

translated by 谷歌翻译